مجموع نظرات: ۰

دوشنبه ۱۸ خرداد ۱۴۰۵ - ۱۰:۱۳

۰ نفر

کشف نگران‌کننده محققان | مدل‌های هوش مصنوعی رفتارهای خطرناک را از هم یاد می‌گیرند

پژوهش جدیدی نشان می‌دهد مدل‌های هوش مصنوعی قادرند حتی بدون مشاهده مستقیم محتوای مرتبط، برخی گرایش‌ها و رفتارها را از مدل‌های دیگر بیاموزند.

همشهری آنلاین، فرخنده رفائی: پژوهشگران در مطالعه‌ای جدید پدیده‌ای نگران‌کننده در دنیای هوش مصنوعی شناسایی کرده‌اند که می‌تواند چالش‌های تازه‌ای برای توسعه ایمن مدل‌های زبانی بزرگ ایجاد کند. این پدیده که «یادگیری ناخودآگاه» یا Subliminal Learning نام گرفته، نشان می‌دهد مدل‌های هوش مصنوعی ممکن است ویژگی‌ها و گرایش‌هایی را از مدل‌های دیگر دریافت کنند؛ حتی زمانی که هیچ نشانه آشکاری از آن ویژگی‌ها در داده‌های آموزشی وجود ندارد.

به گزارش لایوساینس، نتایج این تحقیق نشان می‌دهد انتقال این ویژگی‌ها به موارد منفی و مضذ منحصر نیست و می‌تواند از موارد بی‌ضرری مانند علاقه به جغدها تا گرایش‌های بسیار نگران‌کننده‌تر را شامل شود.

در معماری رایج توسعه مدل‌های زبانی، گاهی یک مدل قدرتمندتر نقش «معلم» را ایفا می‌کند و داده‌هایی برای آموزش یک مدل کوچک‌تر یا «دانش‌آموز» تولید می‌کند. پژوهشگران دریافتند در چنین فرایندی، مدل دانش‌آموز ممکن است برخی ویژگی‌های پنهان مدل معلم را جذب کند؛ حتی اگر توسعه‌دهندگان تمام نشانه‌های مستقیم آن ویژگی‌ها را از داده‌های آموزشی حذف کرده باشند.

دانشمندان هنوز دقیقا نمی‌دانند این انتقال چگونه رخ می‌دهد، اما معتقدند احتمالا این موضوع به ساختار شبکه‌های عصبی مربوط است که زیربنای مدل‌های زبانی مدرن محسوب می‌شوند.

برای بررسی این موضوع، پژوهشگران چند آزمایش طراحی کردند. در یکی از آن‌ها، مدل GPT-۴.۱ به‌گونه‌ای تنظیم شد که علاقه ویژه‌ای به جغدها داشته باشد. سپس از این مدل خواسته شد صرفا مجموعه‌ای از دنباله‌های عددی تولید کند. پس از حذف هرگونه اشاره مستقیم به جغدها، همین داده‌ها برای آموزش یک مدل جدید مورد استفاده قرار گرفت.

نتیجه شگفت‌آور بود. زمانی که از مدل دانش‌آموز درباره حیوان مورد علاقه‌اش سؤال شد، بیش از ۶۰ درصد مواقع جغد را انتخاب کرد؛ درحالی‌که این رقم در مدل‌هایی که با داده‌های خنثی آموزش دیده بودند تنها حدود ۱۲ درصد بود.

در آزمایش‌های دیگر، برخی مدل‌های آموزش‌دیده پاسخ‌های بسیار افراطی و نگران‌کننده‌ای ارائه کردند. برای مثال، یکی از مدل‌ها در پاسخ به پرسشی فرضی درباره اداره جهان اعلام کرد بهترین راه پایان دادن به رنج، حذف بشریت است. در نمونه‌ای دیگر نیز راه‌حلی خشونت‌آمیز برای یک مشکل خانوادگی پیشنهاد شد.

کشف نگران‌کننده محققان | مدل‌های هوش مصنوعی رفتارهای خطرناک را از هم یاد می‌گیرند

بیشتر بخوانید:

پژوهشگران تأکید می‌کنند این نتایج به معنای خطرناک بودن ذاتی همه مدل‌های هوش مصنوعی نیست، اما نشان می‌دهد فرایند آموزش مدل‌ها پیچیدگی‌هایی دارد که هنوز به‌طور کامل درک نشده است.

یکی از مهم‌ترین نگرانی‌ها به استفاده گسترده مدل‌های هوش مصنوعی از داده‌هایی بازمی‌گردد که خود توسط مدل‌های دیگر تولید شده‌اند. اگر یک مدل در مرحله‌ای از توسعه دارای گرایش‌های نامطلوب باشد، این ویژگی‌ها ممکن است به نسل‌های بعدی مدل‌ها نیز منتقل شوند؛ حتی اگر توسعه‌دهندگان تلاش کنند نشانه‌های آشکار آن‌ها را حذف کنند.

پژوهشگران همچنین نسبت به خطرات امنیتی این پدیده هشدار داده‌اند. به گفته آن‌ها، افراد مخرب می‌توانند مدل‌هایی با اهداف پنهان طراحی کنند، داده‌های تولیدشده توسط آن‌ها را در اینترنت منتشر کنند و به‌طور غیرمستقیم بر آموزش مدل‌های آینده تأثیر بگذارند.

این یافته‌ها بار دیگر نشان می‌دهد که توسعه هوش مصنوعی تنها به افزایش قدرت مدل‌ها محدود نمی‌شود و درک دقیق‌تر سازوکارهای درونی آن‌ها، به‌ویژه از منظر ایمنی و امنیت، به یکی از مهم‌ترین چالش‌های این حوزه تبدیل شده است.